最近,基于深度学习(DL)的非侵入性语音评估模型引起了极大的关注。许多研究报告说,这些基于DL的模型产生令人满意的评估性能和良好的灵活性,但是它们在看不见的环境中的性能仍然是一个挑战。此外,与质量分数相比,更少的研究详细阐述了深度学习模型以估计可理解性得分。这项研究提出了一个多任务语音可理解性预测模型,称为MTI-NET,用于同时预测人类和机器的可理解性度量。具体而言,鉴于语音话语,MTI-NET旨在预测人类的主观听力测试结果和单词错误率(WER)分数。我们还研究了几种可以改善MTI-NET预测性能的方法。首先,我们比较不同功能(包括自我监督学习(SSL)模型的低级功能和嵌入)和MTI-NET的预测目标。其次,我们探讨了转移学习和多任务学习对培训MTI-NET的影响。最后,我们研究了微调SSL嵌入的潜在优势。实验结果证明了使用跨域特征,多任务学习和微调SSL嵌入的有效性。此外,已经证实,MTI-NET预测的可理解性和WER得分与地面真实分数高度相关。
translated by 谷歌翻译
提高用户在嘈杂环境中理解语音的听力能力对于助听器设备的开发至关重要。为此,得出一个可以公平地预测HA用户语音清晰度的度量标准很重要。一种直接的方法是进行主观听力测试,并将测试结果用作评估度量。但是,进行大规模的听力测试是耗时且昂贵的。因此,将几个评估指标得出作为主观听力测试结果的替代物。在这项研究中,我们提出了一个多支链的语音可理解性预测模型(MBI-NET),以预测HA用户的主观可理解性评分。 MBI-NET由两个模型分支组成,每个分支由听力损失模型,跨域特征提取模块和语音可理解性预测模型组成,以从一个通道处理语音信号。两个分支的输出通过线性层融合,以获得预测的语音清晰度得分。实验结果证实了MBI-NET的有效性,MBI-NET的有效性比轨道1中的基线系统和轨道2在Clarity Preditation Challenge挑战2022数据集中产生的预测分数更高。
translated by 谷歌翻译
在这项研究中,我们提出了一种跨域多目标语音评估模型,即MOSA-net,可以同时估算多个语音评估度量。更具体地,MOSA-Net旨在基于作为输入的测试语音信号来估计语音质量,可懂度和失真评估分数。它包括用于表示提取的卷积神经网络和双向长短期存储器(CNN-BLSTM)架构,以及每个评估度量的乘法注意层和完全连接的层。此外,来自自我监督学习模型的跨域特征(光谱和时域特征)和潜在的表示用作将丰富的声学信息与不同语音表示相结合的输入,以获得更准确的评估。实验结果表明,MOSA-Net可以精确地预测语音质量(PESQ),短时间客观可懂度(STOI)和语音失真指数(SDI)分数的感知评估,并且在噪声下进行了测试,并且在任何看法测试下都有增强的语音话语条件(测试扬声器和训练集中涉及的噪音类型)或看不见的测试条件(其中测试扬声器和噪声类型不参与训练集)。鉴于确认的预测能力,我们进一步采用了MOSA网的潜在表示来引导语音增强(SE)过程,并导出了质量清晰度(QI)-AWARE SE(QIA-SE)方法。实验结果表明,与客观评估指标和定性评估测试相比,QIA-SE与基线SE系统相比提供了卓越的增强性能。
translated by 谷歌翻译